在过去的十年中,许多组织制作了旨在从规范意义上进行标准化的文件,并为我们最近和快速的AI开发促进指导。但是,除了一些荟萃分析和该领域的批判性评论外,尚未分析这些文档中提出的思想的全部内容和分歧。在这项工作中,我们试图扩展过去研究人员所做的工作,并创建一种工具,以更好地数据可视化这些文档的内容和性质。我们还提供了通过将工具应用于200个文档的样本量获得的结果的批判性分析。
translated by 谷歌翻译
Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.
translated by 谷歌翻译
Text Summarization is recognised as one of the NLP downstream tasks and it has been extensively investigated in recent years. It can assist people with perceiving the information rapidly from the Internet, including news articles, social posts, videos, etc. Most existing research works attempt to develop summarization models to produce a better output. However, advent limitations of most existing models emerge, including unfaithfulness and factual errors. In this paper, we propose a novel model, named as Knowledge-aware Abstractive Text Summarization, which leverages the advantages offered by Knowledge Graph to enhance the standard Seq2Seq model. On top of that, the Knowledge Graph triplets are extracted from the source text and utilised to provide keywords with relational information, producing coherent and factually errorless summaries. We conduct extensive experiments by using real-world data sets. The results reveal that the proposed framework can effectively utilise the information from Knowledge Graph and significantly reduce the factual errors in the summary.
translated by 谷歌翻译
NLP研究的最新突破,例如变压器模型的出现,无疑促进了多项任务的重大进步。但是,很少有作品研究其评估策略的鲁棒性和解释性问题。在这项工作中,我们研究了高性能预训练的语言模型的行为,重点是视觉词汇的语义相似性。首先,我们满足了对可解释的评估指标的需求,这是理解检索实例的概念质量所必需的。我们提出的指标在地方和全球层面提供了宝贵的见解,展示了广泛使用方法的无能。其次,对显着查询语义的对抗性干预措施暴露了不透明指标的漏洞,并在学习的语言表示中突出了模式。
translated by 谷歌翻译
具有多视图属性的光场(LF)图像具有许多应用程序,可以严重受到低光成像的影响。低光增强的最新基于学习的方法具有自己的缺点,例如在极低的光线条件下没有噪声抑制,复杂的训练过程和差的性能。针对解决这些缺陷的目标,同时充分利用了多视图信息,我们为LF图像提出了有效的低光修复变压器(LRT),并具有多个头部以执行特定的中间任务,包括DeNosising,亮度调整,完善和细节增强,增强和细节,增强,并增强细节,在单个网络中,实现从小规模到全尺度的渐进式恢复。我们设计了一个具有视角方案的角变压器块,以有效地对全局角关系进行建模,并设计一个基于窗口的多尺度变压器块来编码多规模的本地和全局空间信息。为了解决训练数据不足的问题,我们通过使用LF摄像机的估计噪声参数模拟主要噪声来制定合成管道。实验结果表明,我们的方法可以在恢复具有高效率的极低光线和嘈杂的LF图像上实现卓越的性能。
translated by 谷歌翻译
尽管收集了越来越多的数据集用于培训3D对象检测模型,但在LiDar扫描上注释3D盒仍然需要大量的人类努力。为了自动化注释并促进了各种自定义数据集的生产,我们提出了一个端到端的多模式变压器(MTRANS)自动标签器,该标签既利用LIDAR扫描和图像,以生成来自弱2D边界盒的精确的3D盒子注释。为了减轻阻碍现有自动标签者的普遍稀疏性问题,MTRAN通过基于2D图像信息生成新的3D点来致密稀疏点云。凭借多任务设计,MTRANS段段前景/背景片段,使LIDAR POINT CLUENS云密布,并同时回归3D框。实验结果验证了MTRAN对提高生成标签质量的有效性。通过丰富稀疏点云,我们的方法分别在Kitti中度和硬样品上获得了4.48 \%和4.03 \%更好的3D AP,而不是最先进的自动标签器。也可以扩展Mtrans以提高3D对象检测的准确性,从而在Kitti硬样品上产生了显着的89.45 \%AP。代码位于\ url {https://github.com/cliu2/mtrans}。
translated by 谷歌翻译
随着大数据时代的出现以及人工智能和其他技术的发展,数据安全和隐私保护变得越来越重要。推荐系统在我们的社会中有许多应用程序,但是建议系统的模型构建通常与用户数据密不可分。特别是对于基于深度学习的推荐系统,由于模型的复杂性和深度学习本身的特征,其培训过程不仅需要长时间的培训时间和丰富的计算资源,而且还需要使用大量的用户数据,在数据安全和隐私保护方面构成了巨大的挑战。如何在确保数据安全性的同时训练分布式建议系统已成为要解决的紧迫问题。在本文中,我们基于Intel SGX(软件保护扩展),可信赖的执行环境的实施以及TensorFlow框架,实施两个方案,水平联合学习和安全的分布式培训,以实现安全,分布式分布式建议的基于系统的学习方案在不同的情况下。我们在经典的深度学习推荐模型(DLRM)上进行实验,该模型是一种基于神经网络的机器学习模型,旨在个性化和建议,结果表明,我们的实施介绍了模型性能的大约没有损失。训练速度在可接受的范围内。
translated by 谷歌翻译
在视频deNoising中,相邻的框架通常提供非常有用的信息,但是需要准确的对齐方式,然后才能刺激此类信息。在这项工作中,我们提出了一个多对准网络,该网络生成多个流动建议,然后是基于注意的平均。它用于模仿非本地机制,通过平均多个观测来抑制噪声。我们的方法可以应用于基于流量估计的各种最新模型。大规模视频数据集上的实验表明,我们的方法通过0.2DB提高了Denoisis基线模型,并通过模型蒸馏进一步将参数降低了47%。代码可在https://github.com/indigopurple/manet上找到。
translated by 谷歌翻译
在光子 - 稀缺情况下的成像引入了许多应用的挑战,因为捕获的图像具有低信噪比和较差的亮度。在本文中,我们通过模拟量子图像传感器(QIS)的成像来研究低光子计数条件下的原始图像恢复。我们开发了一个轻量级框架,由多级金字塔去噪网络(MPDNET)和亮度调整(LA)模块组成,以实现单独的去噪和亮度增强。我们框架的主要组成部分是多跳过的剩余块(MARB),其集成了多尺度特征融合和注意机制,以实现更好的特征表示。我们的MPDNET采用拉普拉斯金字塔的想法,以了解不同级别的小规模噪声图和大规模的高频细节,在多尺度输入图像上进行特征提取,以编码更丰富的上下文信息。我们的LA模块通过估计其照明来增强去噪图像的亮度,这可以更好地避免颜色变形。广泛的实验结果表明,通过抑制噪声并有效地恢复亮度和颜色,我们的图像恢复器可以在具有各种光子水平的具有各种光子水平的降解图像上实现优异的性能。
translated by 谷歌翻译
近年来,机器学习已显示出广泛的增长,现在通常应用于敏感区域。为了在部署前进行适当的预测模型验证,模型必须是确定性的。但是,主要的机器学习库默认用于基于原子操作的非确定性算法的使用。仅修复所有随机种子不足以确定性机器学习。为了克服这一缺点,各种机器学习库发布了与非确定性算法的确定性对应物。我们评估了这些算法对确定性和运行时的影响。基于这些结果,我们为确定性机器学习制定了一系列要求,并开发了新的软件解决方案MLF核心生态系统,该解决方案有助于机器学习项目以满足并保持这些要求。我们应用了MLF核心在各种生物医学领域开发确定性模型,包括带有张量的单细胞自动编码器,基于Pytorch的CT扫描中的基于Pytorch的U-NET模型,以及基于XGBoost的基因表达谱的肝癌分割和基于肝癌的肝癌分类器。
translated by 谷歌翻译